Large language models (LLMs) have shown impressive results across a variety of tasks while requiring little or no direct supervision. Further, there is mounting evidence that LLMs may have potential in information-seeking scenarios. We believe the ability of an LLM to attribute the text that it generates is likely to be crucial for both system developers and users in this setting. We propose and study Attributed QA as a key first step in the development of attributed LLMs. We develop a reproducable evaluation framework for the task, using human annotations as a gold standard and a correlated automatic metric that we show is suitable for development settings. We describe and benchmark a broad set of architectures for the task. Our contributions give some concrete answers to two key questions (How to measure attribution?, and How well do current state-of-the-art methods perform on attribution?), and give some hints as to how to address a third key question (How to build LLMs with attribution?).
translated by 谷歌翻译
传达相关和忠实信息的能力对于有条件生成的许多任务至关重要,但对于神经SEQ-seq seq模型仍然难以捉摸,这些模型的输出通常显示出幻觉,并且无法正确涵盖重要细节。在这项工作中,我们主张规划作为有用的中间表示,以使有条件的一代减少不透明和扎根。我们的作品提出了将文本计划作为一系列提问(QA)对的新概念化。我们用QA蓝图作为内容选择(即〜说什么)和计划(即〜按什么顺序)来增强现有数据集(例如,用于摘要)。我们通过利用最先进的问题生成技术并将输入输出对自动获取蓝图,并将其转换为输入 - 蓝图输出输出元组。我们开发了基于变压器的模型,每个模型都在它们如何将蓝图合并到生成的输出中(例如,作为全局计划或迭代)。跨指标和数据集的评估表明,蓝图模型比不采取计划并允许对生成输出进行更严格控制的替代方案更为事实。
translated by 谷歌翻译
本文介绍了一个新的培训数据集,用于自动类型识别Ginco,基于1,125个爬行的斯洛文尼亚文档,由650万字组成。每个文档都是手动注释的,用于具有在现有模式上构建的新注释模式,主要是标签和注册间协议的主要明确。数据集包括与基于Web的数据相关的各种挑战,例如机器翻译内容,编码错误,在一个文件中呈现的多个内容等,使得能够评估现实条件中的分类器。 DataSet上的初始机器学习实验表明(1)预变压器模型的巨大程度较低,能够模拟现象,宏观F1度量范围约为0.22,而基于变压器的模型达到约0.58的分数,而且(2)多语言变压器模型以及任务的工作以及先前被证明是优于标准NLP任务的多语言模型的单格式模型。
translated by 谷歌翻译